智能论文笔记

可再生能源的快速开发，尤其是太阳能光伏（PV），对于缓解气候变化至关重要。结果，印度设定了雄心勃勃的目标，可以在2030年之前安装500吉瓦的太阳能容量。鉴于预计大量的足迹可以满足可再生能源能源目标，因此对环境价值的土地利用冲突的潜力很高。为了加快太阳能的发展，土地使用计划者将需要访问PV基础设施的最新，准确的地理空间信息。在这项工作中，我们开发了一种露骨的机器学习模型，以使用自由使用的卫星图像绘制印度的公用事业规模的太阳能项目，平均准确性为92％。我们的模型预测得到了人类专家的验证，以获取1363个太阳能光伏农场的数据集。使用此数据集，我们测量了整个印度的太阳足迹，并量化了与PV基础设施发展相关的土地盖修改程度。我们的分析表明，印度超过74％的太阳能发展是建立在具有自然生态系统保护或农业价值的陆生类型上的。

translated by 谷歌翻译

本文介绍了基于多代理增强学习的频谱共享频谱共享的概念扩展到异质车辆网络（HETVNET）。在这里，多个车辆对车辆（V2V）链接了其他车辆对接口（V2I）以及其他网络的频谱。车辆网络中的快速变化环境限制了集中CSI并分配渠道的想法。因此，这里使用实施基于ML的方法的想法，以便可以在所有车辆中以分布式方式实施。这里的每个板载单元（OBU）都可以感觉到频道中的信号，并基于该信息运行RL以决定自主采用的频道。在这里，每个V2V链接将是MARL中的代理商。这个想法是训练RL模型，以使这些代理商可以协作而不是竞争。

translated by 谷歌翻译

Learning Skills to Navigate without a Master: A Sequential Multi-Policy Reinforcement Learning Algorithm

Ambedkar Dukkipati , Rajarshi Banerjee , Ranga Shaarad Ayyagari , Dhaval Parmar Udaybhai

分类：人工智能 | 机器人

2021-01-30

使用强化学习解决复杂的问题必须将问题分解为可管理的任务，无论是明确或隐式的任务，并学习解决这些任务的政策。反过来，这些政策必须由采取高级决策的总体政策来控制。这需要培训算法在学习这些政策时考虑这种等级决策结构。但是，实践中的培训可能会导致泛化不良，要么在很少的时间步骤执行动作，要么将其全部转变为单个政策。在我们的工作中，我们介绍了一种替代方法来依次学习此类技能，而无需使用总体层次的政策。我们在环境的背景下提出了这种方法，在这种环境的背景下，学习代理目标的主要组成部分是尽可能长时间延长情节。我们将我们提出的方法称为顺序选择评论家。我们在我们开发的灵活的模拟3D导航环境中演示了我们在导航和基于目标任务的方法的实用性。我们还表明，我们的方法优于先前的方法，例如在我们的环境中，柔软的演员和软选择评论家，以及健身房自动驾驶汽车模拟器和Atari River RAID RAID环境。

translated by 谷歌翻译